Tesseractで複数の言語を使用する方法

C#のTesseractで複数の言語を使用する方法</#35;

This article was translated from English: Does it need improvement?
Translated
View the article in English

IronOCRはTesseractエンジンを使用し、1行のコードで主言語と副言語を設定することにより、多言語のドキュメントからのテキスト抽出を可能にし、シームレスな多言語OCR処理のための125以上の言語パックをサポートします。

はじめに

. 。 IronOCRは、信頼性の高いOCRツールとして[Tesseract Engine](https://ironsoftware.com/csharp/ocr/features/tesseract/)を使用し、様々な言語やスクリプトからのテキスト抽出を提供します。 この記事では、IronOCRがTesseractを通してどのように多言語のテキストを扱っているかをご紹介します。 多言語OCRソリューションの実装方法を学び、IronOCRの機能とTesseractエンジンとの統合を理解します。 最新のアプリケーションでは、複数の言語で文書を処理することが不可欠です。 国際的なビジネス文書、多言語ウェブサイト、グローバルコミュニケーションプラットフォームでは、言語の壁を越えた正確なテキスト抽出が求められます。 IronOCRは、Tesseractの広範な言語サポートと統合することで、複数のスクリプトや文字セットを含むドキュメントからのテキスト抽出を可能にし、このニーズに応えます。 *as-heading:2(クイックスタート: IronOCR を使用して複数の言語のテキストを認識する)* IronOCRを一次言語で設定し、多言語文書や画像からテキストを抽出するために一行で二次言語を追加します。 ```cs :title=Start Multilingual OCR in Seconds string text = new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French).Read("doc_or_image_path").Text; ```

多言語のPDFをIronOCRで読むには? IronOcrは[125の言語パック](https://ironsoftware.com/csharp/ocr/examples/intl-languages/)を提供しています; デフォルトでは英語のみインストールされます。 NuGetから他の言語をダウンロードしてください。 利用可能なすべての[言語パックはこちら](/csharp/ocr/languages)をご覧ください。 複数の言語を含むPDFには、特定のOCRエンジン設定が必要です。 IronOCRは、文書を処理する前に主言語と副言語を指定することができ、異なるスクリプトや文字セット間で最適な認識精度を保証します。 ### PDF抽出で使用できる言語はどれですか? 次の例は、IronOcrで複数の言語を使用してPDFファイルからテキストを抽出する方法を示しています。 ```csharp :path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-pdf-input.cs ``` 複雑な PDF 処理シナリオについては、[PDF OCR テキスト抽出](https://ironsoftware.com/csharp/ocr/examples/csharp-pdf-ocr/)のガイドを参照してください。 ### 言語の優先順位はOCR結果にどのように影響しますか? `AddSecondaryLanguage`メソッドを使用して、任意の数の二次言語を追加します。 言語が追加されると、スピードとパフォーマンスに影響する可能性があることに注意してください。 言語の優先順位は、追加された順番によります。 言語の優先順位を理解することは、多言語ドキュメントを処理する上で非常に重要です。 OCRエンジンはまず、主要言語の文字セットと文字の照合を試みます。 一次言語のパターンに一致しない文字がある場合は、二次言語を参照します。 最適なパフォーマンスのために - 文書内で最も一般的な言語をプライマリとして設定します。 - ドキュメントに頻度順に二次言語を追加 - 二次言語は、ユースケースに必要なものに限定してください。 複数の言語を使用する高性能なアプリケーションについては、処理速度を最適化するための [Fast OCR Configuration](https://ironsoftware.com/csharp/ocr/examples/tune-tesseract-for-speed-in-dotnet/) ガイドを参照してください。 ## Tesseractで多言語画像を処理するには? . 。 デフォルトの主要言語は英語です。 To change it, set the **Language** property to your desired language, then add secondary languages as needed. 多言語テキストを含む画像は、慎重な設定が必要です。 PDFとは異なり、画像には様々なテキスト方向、異なるフォント、混合スクリプトが含まれる可能性があります。IronOCRのTesseractインテグレーションは、これらのシナリオに対応する包括的な言語設定オプションを提供します。 ### デフォルトの言語設定はいつ変更すべきですか? デフォルト言語の変更 - ドキュメントの大半は英語以外の言語です。 - 特定の地域または国の文書の処理 - 英語以外のコンテンツを扱うユーザーを対象としたアプリケーション - 特定の文字セットに対する認識精度の最適化 以下は、完全な多言語画像処理の例です: ```csharp // Example code for reading multi-language image with IronOCR using IronOcr; // Initialize IronTesseract OCR engine var Ocr = new IronTesseract(); :path=/static-assets/ocr/content-code-examples/how-to/ocr-multiple-languages-image-input.cs ``` カスタム言語や特殊なフォントについては、[カスタム言語ファイルの使用](https://ironsoftware.com/csharp/ocr/examples/ocr-tesseract-custom-languages/)のチュートリアルを参照してください。 ### 多言語OCRにはどのような結果が期待できますか? 適切な設定により、次のような結果が得られます: [文字処理を表示するコンソール出力でロシア語と日本語のコンテンツを表示する多言語テキスト処理アプリ](/static-assets/ocr/how-to/multiple-languages/russian_japanese%20.webp)。 多言語OCRの結果品質は、いくつかの要因に左右されます: 1.**画質**:解像度が高い(300+ DPI)ほど、より良い結果が得られます。 [DPI 設定ガイド](https://ironsoftware.com/csharp/ocr/how-to/dpi-setting/)を参照してください。 2.**テキストの明確さ**:アーチファクトのない、明瞭で明確に定義されたテキストは、より正確な認識をもたらします。 3.**言語設定**:主言語と副言語を適切に設定することで、正しい文字認識パターンを保証します。 4.**前処理**:適切なフィルタは結果を大幅に改善します。 強化テクニックについては、[画像補正フィルター](https://ironsoftware.com/csharp/ocr/how-to/image-quality-correction/)ガイドを参照してください。 ## 多言語 OCR のキーポイントは何ですか? IronOCRはTesseractエンジンを使用し、多言語ドキュメントからテキストを効果的に抽出します。 多言語のテキストを読むという複雑な作業に対応し、汎用性の高いソリューションを提供します。 様々な言語のPDFを処理する場合でも、多言語の画像コンテンツを扱う場合でも、IronOCRは言語間のテキストの認識と抽出を簡素化します。 多言語テキスト抽出のためのIronOCRの主な利点: - **幅広い言語サポート**:NuGet パッケージ経由で [125 以上の国際的な OCR 言語](https://ironsoftware.com/csharp/ocr/examples/intl-languages/)をサポートします。 - **柔軟な設定**: 主言語および副言語設定のためのシンプルなAPI - **高精度**:Tesseract 5の高度な認識アルゴリズムを使用 - **パフォーマンスの最適化**: 組み込みの[マルチスレッド](https://ironsoftware.com/csharp/ocr/how-to/async/)サポート - **クロスプラットフォーム互換性**:Windows、Linux、macOSで動作 IronOCRは、多言語OCR実装のための強力な機能と使いやすさを組み合わせた包括的なソリューションを提供します。 文書管理システム、翻訳ツール、または多言語テキスト抽出を必要とするあらゆるアプリケーションを、成功に必要な柔軟性と信頼性で構築します。 NuGetからIronOCRをダウンロードし、ドキュメントとサンプルを見て、多言語OCRプロジェクトを始めてください。 特定のユースケースや高度なシナリオについては、[トラブルシューティングガイド](https://ironsoftware.com/csharp/ocr/troubleshooting/general-troubleshooting-ocr/)が最適な結果を得るための洞察を提供します。

よくある質問

複数の言語を含む文書でOCRを実行するにはどうすればよいですか?

IronOCRはたった1行のコードで多言語OCRを設定することができます。Languageプロパティを使って一次言語を設定し、AddSecondaryLanguageメソッドを使って二次言語を追加します。これによりIronOCRは複数のスクリプトや文字セットを含む文書から同時に正確にテキストを抽出することができる。

テキスト抽出に対応している言語は?

IronOCRはTesseractエンジンとの統合により125以上の言語パックをサポートしています。デフォルトでは英語がインストールされていますが、NuGetから追加の言語パックをダウンロードすることで、スペイン語、フランス語からアラビア語、中国語、日本語、その他多くの言語のOCR機能を有効にすることができます。

OCR処理に二次言語を追加するにはどうすればよいですか?

追加言語を有効にするにはIronOCRのAddSecondaryLanguageメソッドを使用します。例えば: new IronTesseract { Language = OcrLanguage.Spanish }.AddSecondaryLanguage(OcrLanguage.French).この設定により、IronOCRは同じドキュメント内でスペイン語とフランス語の両方のテキストを認識することができます。

多言語PDFからテキストを抽出できますか?

はい、IronOCRは複数の言語を含むPDFを処理することができます。処理前にOCRエンジンに主言語と副言語を設定するだけです。IronOCRはPDF内の異なるスクリプトや文字セットを自動的に処理し、文書内のすべての言語で正確なテキスト抽出を保証します。

言語パックを別途インストールする必要がありますか?

IronOCRにはデフォルトで英語が含まれていますが、追加の言語パックをNuGet経由でインストールする必要があります。各言語パックにはIronOCRのTesseractエンジンがその言語のテキストを認識するために必要なデータが含まれています。利用可能な全ての言語パックはIronOCRの言語ページから閲覧、ダウンロードすることができます。

多言語OCRの最小限のワークフローとは?

最小限のワークフローは以下の5ステップです:1) IronOCRライブラリのダウンロード、2) PDFまたは画像ドキュメントの準備、3) NuGet経由で必要な言語パックのインストール、4) AddSecondaryLanguageメソッドを使用して追加言語を有効化、5) 主要言語のLanguageプロパティの設定。このセットアップにより、正確な多言語テキスト抽出が可能になります。

Kannaopat Udonpant
ソフトウェアエンジニア
ソフトウェアエンジニアになる前に、Kannapatは北海道大学で環境資源の博士号を修了しました。博士号を追求する間に、彼はバイオプロダクションエンジニアリング学科の一部である車両ロボティクスラボラトリーのメンバーになりました。2022年には、C#のスキルを活用してIron Softwareのエンジニアリングチームに参加し、IronPDFに注力しています。Kannapatは、IronPDFの多くのコードを執筆している開発者から直接学んでいるため、この仕事を大切にしています。同僚から学びながら、Iron Softwareでの働く社会的側面も楽しんでいます。コードやドキュメントを書いていない時は、KannapatはPS5でゲームをしたり、『The Last of Us』を再視聴したりしていることが多いです。
レビュー済み

A PHP Error was encountered

Severity: Warning

Message: Illegal string offset 'name'

Filename: sections/author_component.php

Line Number: 70

Backtrace:

File: /var/www/ironpdf.com/application/views/main/sections/author_component.php
Line: 70
Function: _error_handler

File: /var/www/ironpdf.com/application/libraries/Render.php
Line: 63
Function: view

File: /var/www/ironpdf.com/application/views/products/sections/three_column_docs_page_structure.php
Line: 64
Function: main_view

File: /var/www/ironpdf.com/application/libraries/Render.php
Line: 88
Function: view

File: /var/www/ironpdf.com/application/views/products/how-to/index.php
Line: 2
Function: view

File: /var/www/ironpdf.com/application/libraries/Render.php
Line: 88
Function: view

File: /var/www/ironpdf.com/application/libraries/Render.php
Line: 552
Function: view

File: /var/www/ironpdf.com/application/controllers/Products/Howto.php
Line: 31
Function: render_products_view

File: /var/www/ironpdf.com/index.php
Line: 292
Function: require_once

">

A PHP Error was encountered

Severity: Warning

Message: Illegal string offset 'title'

Filename: sections/author_component.php

Line Number: 84

Backtrace:

File: /var/www/ironpdf.com/application/views/main/sections/author_component.php
Line: 84
Function: _error_handler

File: /var/www/ironpdf.com/application/libraries/Render.php
Line: 63
Function: view

File: /var/www/ironpdf.com/application/views/products/sections/three_column_docs_page_structure.php
Line: 64
Function: main_view

File: /var/www/ironpdf.com/application/libraries/Render.php
Line: 88
Function: view

File: /var/www/ironpdf.com/application/views/products/how-to/index.php
Line: 2
Function: view

File: /var/www/ironpdf.com/application/libraries/Render.php
Line: 88
Function: view

File: /var/www/ironpdf.com/application/libraries/Render.php
Line: 552
Function: view

File: /var/www/ironpdf.com/application/controllers/Products/Howto.php
Line: 31
Function: render_products_view

File: /var/www/ironpdf.com/index.php
Line: 292
Function: require_once

A PHP Error was encountered

Severity: Warning

Message: Illegal string offset 'comment'

Filename: sections/author_component.php

Line Number: 85

Backtrace:

File: /var/www/ironpdf.com/application/views/main/sections/author_component.php
Line: 85
Function: _error_handler

File: /var/www/ironpdf.com/application/libraries/Render.php
Line: 63
Function: view

File: /var/www/ironpdf.com/application/views/products/sections/three_column_docs_page_structure.php
Line: 64
Function: main_view

File: /var/www/ironpdf.com/application/libraries/Render.php
Line: 88
Function: view

File: /var/www/ironpdf.com/application/views/products/how-to/index.php
Line: 2
Function: view

File: /var/www/ironpdf.com/application/libraries/Render.php
Line: 88
Function: view

File: /var/www/ironpdf.com/application/libraries/Render.php
Line: 552
Function: view

File: /var/www/ironpdf.com/application/controllers/Products/Howto.php
Line: 31
Function: render_products_view

File: /var/www/ironpdf.com/index.php
Line: 292
Function: require_once